迷信、强化学习与认知的若干思考

说到迷信，我们可能并不陌生，迷信作为一个已经被我们贴上颜色标签的词，我们每个人都会有特殊的反应。说到强化学习，我们可能也并不陌生，作为人工智能博弈类的常用方法，至今还并未纳入到传统的机器学习方法中。但我们这次既不从迷信这个哲学角度开始说起，也不从强化学习这个人工智能领域里说，我们这次从生理学与心理学的一个经典案例开始说起。

对于生理上的强化学习最经典的案例莫过于巴甫洛夫的条件反射说，而它的那条著名的会流口水的狗，也成为众所周知的对象。巴甫洛夫的条件反射学说认为：在生理上存在着2种反射，一种是无条件反射，它无需学习，映射在每一个物种的基因上，一代一代传承下来。另一种是条件反射，它下可以通过经验或者学习获得。而巴甫洛夫的实验表明，通过一定的刺激和关联，其中性刺激也可以转化为条件刺激。这就是著名的“摇铃铛就会流口水的狗”的实验，事实上，巴甫洛夫用的是节拍器。这种试验尽管已经过去90年（《大脑：两半球活动讲义》1927），但现在你也可以在自己身上重复这种实验，而且确实是可被证实的。

这种基于反射的学习方式被我们广为应用，我们不断的进行考试，不断的进行模拟考试，就是为了不断的强化我们对于知识的掌握程度，我们中国学生之所以在各项竞赛中获得较为优秀的成绩，离不开各种强化学习的方式，但是我们学习到的反射，其重点在于，遇到问题——寻找解决路径——解决问题的后半部分，也就是从可能解决问题的若干种方法中找到确实解决问题的方法。而国外教育的大部分重心用在了其前一部分，但这并不是说国外的比国内的优秀，就中国目前情况而言，现今的教育体系使得我们国家从一个一穷二白的状态上升为一个一流大国的行列，这种速度至今世界上也没有第二个案例发生，但是要继续发展下去，可能需要考虑一下教育的改变了。

好的，回归正题，上述所说的巴甫洛夫的狗和我们的强化学习有什么关系呢？就其本质而言，近乎相同，它简单来说，也就是通过自己的行为与环境中的变化之间的一定的关系，来改变自己行为状态的过程。例如，在某一情境下，一个行为可以获得“奖励”型的结果，那么这种行为就会得到强化，而如果一个行为可以获得“惩罚”型的结果，那么这种行为就不会得到学习或者得到抑制。这种论述早在80年前（《有机体的行为：一种实验分析》1938）就已经被经验性总结了，直到20年前（Morris,1997）才被正式提出。这也正是强化学习为什么如此年轻的原因之一。

在人工智能的强化学习领域，也许这种行为对于所谓的博弈类问题都有着较为出色的表现，包括最近2天，还是那个风头正盛的DeepMind公司，正在搞一个人工智能的合作-对抗实验，其游戏名叫 Gathering，比赛收集苹果，人工智能控制的玩家可以用激光冻结对方。研究者发现，当苹果的余量充足时，双方相安无事，但当余量不足时，对抗就比较激烈了，冻结的情况经常发生。而当其中一方换成级别更高人工智能时，它会更主动地提前冻结对手。更为智能的人工智能会对外界环境变化更加敏感，从而更快的做出更加有预见性的决策。

然而，在生理学和心理学上，对于其学习到的条件反射是否可以学习基本上不存在疑问，更多的是对于其学习到的条件反射是否可以“退化”持不同态度。这也正是很多心理学实验被指存在伦理道德问题而终止的原因。在100年前，人们的伦理道德观念还并未像现在这么强烈，因此也出现了个别的以人为实验样本的心理学实验。约翰.华生的《条件性情绪反应》（1920）给出了一个“阿尔伯特”小孩子的实验，主要是用来检验我们人类会反射性的习得各种情绪，很显然恐惧是一个最容易观察和不被伪装的情绪，而这也正是小“阿尔伯特”可怜的原因，虽然并没有后续研究证实小“阿尔伯特”因为此次试验而从此对于毛绒物品产生恐惧，但截止到离开实验1个月后，小“阿尔伯特”仍然对毛绒玩具产生恐惧心理。华生也因此计划对阿尔伯特重建条件反射，但是由于他是一名孤儿，被收养后，就没能继续进行矫正实验。

实际上，这种根据条件反射习得的情绪性反应会随着时间的流逝而逐渐的消褪，这已经被我们所有人都得到证实，想想我们经历过的“失恋”、高考失利、亲人去世等一系列重大变故，但我们最终挺了过来。但是其习得的情绪对我们越重要，其消褪时间越长。这一点我们会在下面进行讨论。

那么说到这里，可能要增加一点思考，对于强化学习来讲，我们总是不断的对机器施加学习的条件从而表现出我们想要的状态，如果想要人工智能表现更接近人的表现，我想对于机器已学习的技能进行适当的消褪，也许会有更好的效果。当然这和过拟合类似，因为在机器学习中，我们通常使用惩罚项来对学习效果进行削弱。强化学习的技能消褪，也许对于通用型人工智能的多技能发展提供一点帮助。毕竟在一时间内，人工智能的物理性能保持相对稳定，而为了让它能有多个技能，有必要对已学习的技能进行消褪，为其他技能的发展留出性能空间。

以上讨论的，是基于对于条件的完全掌握的情况下，我们做出的实验性结果。尤其在计算机这种人工智能对于输入有着充分了解的情况下，这种条件反射性学习当然十分有效。如果我们对于外界的反应并不能有效的认识，从而错误的把自己的行为和外界反应进行联络，那么就有可能产生迷信的现象。你可能以为迷信的现象只存在于人类这种高智能生物中，我们可以通过我们丰富的想象力对于事物与事物之间的联系进行自我创造。但是斯金纳的鸽子将会同巴甫洛夫的狗一样，告诉你，这种行为不仅是人所拥有的特性，而是生物界普遍拥有的共性。

在《有机体的行为：一种实验分析》这篇斯金纳的论文中，使用了一种“斯金纳箱”的装置，这种装置内放进一只白鼠或鸽子，并设一个杠杆或键，箱子的构造尽可能排除一切外部刺激。动物在箱内可自由活动，当它压杠杆或啄键时，就会有一团食物掉进箱子下方的盘中，动物就能吃到食物。

当然，最初斯金纳使用的是白鼠做的实验，取得了不错的效果，包括奖励反射、惩罚抑制、周期控制、赌博行为以及迷信行为的验证。我们这里想讲解的是关于鸽子的实验。

这次实验的是8只鸽子，实验内容是，食物分发器被设定为每个15秒落下食丸，不管动物当时在做什么。那么为了强化实验效果，特地饿了鸽子几天，而最终的实验结果都被斯金纳如实的记录道：

8只鸽子中的6只产生了非常明显的反应，两名观察者得到了完全一致的记录。一只鸽子形成了在箱子中逆时针转圈的条件反射，在两次强化之间转二到三圈，另一只反复将头伸向箱子上方的一个角落，第三只显现出一种上举反应，似乎把头放在一根看不见的杆下面并反复抬起它。还有两只鸽子的头和身体呈现出一种钟摆似的动作，它们头部前伸，从右边快速地摆动到左边，接着再慢慢地返回，它们的身子也顺势移动，动作幅度过大时还会踉跄几步。还有一只鸽子形成了不完整啄击或轻触的条件反应，动作直冲地面但并不触及。

从上述描述中，可以很明显的发现鸽子也变得“迷信”了，如果把奖励时间放长到1分钟一次，鸽子的表现则更加亢奋，甚至出现了“鸽子舞”的状态。然而要消褪这种迷信的状态，斯金纳的实验告诉我们，至少要10000次的失败后，鸽子才不会有这种反应。

这种行为让我联想到了古代人们的求雨的祭祀过程。也许事实上只是某一次某一人的一种偶然行为与降雨正相符合，才使得人们对于求雨祭祀的有效性得到肯定。而古时环境恶劣，通常收成不好，人们对于风调雨顺就变得异常渴望，一旦有雨与祭祀偶然相遇，则更加强化了这种迷信行为。

虽然在布鲁纳和列维斯基1961年设计的实验证明人类时十分容易产生迷信行为，而且迷信者都没有意识到自己的迷信行为。但是，在（Aeschleman,Rosen,& Williams 2013）研究中，比较了两种强化类型在迷信形成中的作用。正强化是行为的后果是得到一些你想要的东西（例如金钱、食物或者赞扬）。而负强化是通过消除掉你不喜欢的事物来进行奖赏（例如可以不做家庭作业和减少疼痛）。该研究发现，更高水平的迷信行为（对非偶然事件知觉到的控制）是在负强化的条件下形成，而非负强化下产生。这让我想起假期里我爸对于迷信组织中成员状况的认识：只有自身处境不好的人，才会寻求迷信组织的帮助。他们需要摆脱现实生活中的一些不好的事情，才会去参与迷信活动。

回归到我们的人工智能上来，目前人工智能的强化学习是处在一种100%认知的条件范围内，也就是说，影响人工智能的行为的因素对于人工智能来讲是彻底了解的，并不会有人工智能不知的情况发生。如果换做是真实情况，我们可能把这种行为称为是噪声，从而进行去噪处理，但是真正的人工智能所面临的环境因素就是我们人类现实生活中的各种不确定性因素（简单来讲，多数情况下，你并不清楚女生因为你做的什么事情而喜欢你。），这恰恰是连人都没有办法剔除的噪声。

当你没有办法对伴随你的行为而产生的环境变化做出彻底认识时，你可能没有办法正确的做到强化学习，这可能也是同样的环境下，双胞胎会成长为2个不同的独立的人的原因吧。

最后编辑于：2017.12.05 22:56:05

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 159,835评论 4赞 364
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 67,598评论 1赞 295
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 109,569评论 0赞 244
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 44,159评论 0赞 213
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 52,533评论 3赞 287
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 40,710评论 1赞 222
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 31,923评论 2赞 313
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 30,674评论 0赞 203
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 34,421评论 1赞 246
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 30,622评论 2赞 245
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 32,115评论 1赞 260
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 28,428评论 2赞 254
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 33,114评论 3赞 238
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 26,097评论 0赞 8
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 26,875评论 0赞 197
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 35,753评论 2赞 276
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 35,649评论 2赞 271

迷信、强化学习与认知的若干思考

推荐阅读更多精彩内容